cd/entity/Agents Research Environments· home› entities› Agents Research Environments

grep -l @agents research environments /news/*.json | wc -l → 1

@Agents Research Environments

mentions 1 type Person feed RSS

01:36

2026-06-07

arxiv.org

large-language-models

Gaia2: Benchmarking LLM Agents on Dynamic and Asynchronous Environments

Researchers introduced Gaia2, a benchmark for evaluating large language model agents in dynamic, asynchronous environments where scenarios evolve independently of agent actions. Testing of state-of-th…

// co-occurs with top 4 entities

Gaia2 1 GPT-5 1 Claude-4 Sonnet 1 Kimi-K2 1